Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Объем корпуса «Русская классика» увеличился на 7,5 млн слов. В него добавлены академические полные собрания сочинений Ф. М. Достоевского и Н. А. Некрасова, большая часть написанных по-русски писем И. С. Тургенева, а также некоторые ранее не включенные тексты других авторов.
Сервис «Похожие слова» теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.
Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого — резко отрицательно (как похоть и злоба); лошадка у Лескова — примета быта, а у Чехова — одно из многочисленных прозвищ жены писателя, Ольги Книппер.
Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация — язык перевода и данные о переводчике.
Мы продолжаем совершенствовать Портрет слова в НКРЯ. Недавно в нем появилась возможность сравнивать скетчи, а теперь в Портрете слова Основного корпуса можно изучить, как менялись слова-ассоциаты во времени, а также ознакомиться с толкованием слова.
Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «Оценить» рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.
Виджет «Похожие слова» теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова поезд или машина.
В Портрете слова Основного, Обучающего, Газетных корпусов, а также корпусов «От 2 до 15» и «Русская классика» появилось сравнение скетчей!
Новый функционал позволяет увидеть сходства и различия в употреблении двух слов. Например, можно узнать, что общего у времени и денег или увидеть, что бывает колючим, а что – колким.
Cравнение скетчей доступно для существительных, прилагательных, глаголов и наречий. Сравнить можно две леммы, относящиеся к одной и той же части речи. Для слов, встретившихся менее чем в 3 разных текстах, а также для имен собственных, аббревиатур и слов, имеющих нестандартные написания, скетчи не выводятся и сравнение скетчей недоступно.
Для сравнения отбирается по топ-6 коллокатов для каждого ключа. В сравнительной таблице может быть меньше 12 коллокатов в случае, если не набралось 6 коллокатов для одного или обоих ключей или есть пересечения в топ-6.
Мультимедийный корпус пополнен на 107 тыс. словоупотреблений. В него были добавлены: коллекция записей художественного чтения — рассказы А.П. Чехова в исполнении известных актеров Александра Борисова, Леонида Броневого, Игоря Ильинского, Ростислава Плятта; две театральные постановки, записи телевизионных ток-шоу. Значительно пополнена коллекция записей региональной речи. В нее вошли беседы и интервью с жителями Нижегородской, Мурманской, Рязанской, Свердловской, Тверской областей, Краснодарского края, Якутии и др., которые являются героями сюжетов документальных фильмов из цикла «Письма из провинции» и видеоблогов.
В корпусе появилась возможность отбора подкорпуса по региону.